이미지 생성 모델 성능 평가 안내서
1. 이미지 생성 모델 평가의 패러다임
인공지능 이미지 생성 모델의 성능 평가는 근본적으로 어려운 과제다. 분류나 회귀와 같은 전통적인 지도 학습 모델은 명확한 정답(Ground Truth)이 존재하여 예측과 실제 값의 차이를 측정하면 되지만, 생성 모델의 결과물에는 유일한 정답이 존재하지 않는다.1 모델의 목표는 학습 데이터의 복잡한 확률 분포를 학습하여 그럴듯한 새로운 샘플을 만드는 것이지, 특정 입력에 대한 단 하나의 정답 이미지를 생성하는 것이 아니기 때문이다.3 이러한 본질적 특성 때문에 생성 모델 평가는 판별 모델의 정확도 평가와는 완전히 다른 접근법을 요구한다.
이러한 배경 속에서 이미지 생성 모델의 평가 방법론은 크게 두 가지 축으로 발전해왔다. 첫째는 수학적, 통계적 방법에 기반한 정량적 평가이며, 둘째는 인간의 주관적 판단에 의존하는 정성적 평가다. 정량적 지표는 객관성, 재현성, 확장성을 제공하지만, 인간의 복잡한 시각적 인지나 의미론적 뉘앙스를 완벽히 포착하는 데 한계가 있다.4 반면, 정성적 평가는 이러한 미묘한 차이를 잡아낼 수 있지만, 평가자의 주관성, 높은 비용, 그리고 시간 소모라는 명백한 단점을 안고 있다.5 따라서 현대의 생성 모델 평가는 이 두 가지 방법론을 대립적인 것으로 보지 않고, 상호 보완적인 관계로 이해하며 균형 있게 활용하는 것을 지향한다.8
평가 방법론의 발전사는 곧 이미지 생성 AI 분야의 기술적 성숙도를 반영하는 거울과 같다. 초창기 평가 지표인 Inception Score(IS)는 생성된 이미지 자체의 통계적 특성만을 분석하는 데 그쳤다.9 이는 ’실제 데이터’라는 기준점 없이 모델의 성능을 논하려는 시도였다. 이후 Fréchet Inception Distance(FID)의 등장은 평가의 패러다임을 ’실제 데이터 분포와의 비교’로 전환시키며, ’통계적 유사성’을 성공의 핵심 척도로 만들었다.11 Text-to-Image 모델이 주류로 부상하면서, 단순히 사실적인 이미지를 넘어 ’주어진 텍스트 프롬프트를 얼마나 잘 따르는가’가 중요한 평가 차원으로 대두되었고, 이는 CLIP Score의 개발로 이어졌다.4 동시에 픽셀 단위의 차이가 아닌 ’인간이 인지하는 유사성’을 측정하려는 요구는 Learned Perceptual Image Patch Similarity(LPIPS)와 같은 지표를 탄생시켰다.13 최근에는 이러한 자동화된 정량 지표들의 한계를 명확히 인지하고, 인간의 평가를 더욱 체계적이고 세분화하려는 구조화된 평가 프레임워크(예: GenomeBench)로 나아가고 있다.15 이 일련의 흐름은 생성 모델의 성공에 대한 정의가 ’통계적으로 실제 같은 것’에서 출발하여 ’의미적으로 정확하고, 지각적으로 훌륭하며, 궁극적으로 인간의 복잡한 의도에 부합하는 것’으로 점차 다차원적으로 진화하고 있음을 명확히 보여준다. 본 안내서는 이러한 진화의 맥락 속에서 현재 사용되는 핵심 평가 지표들을 심층적으로 분석하고, 이를 바탕으로 한 종합적인 평가 프레임워크 구축 방안과 미래 전망을 제시하고자 한다.
2. 정량적 평가 지표: 객관적 성능의 측정
정량적 평가 지표는 모델의 성능을 객관적인 수치로 표현하여, 서로 다른 모델 간의 공정한 비교를 가능하게 하고 연구 개발의 진척도를 측정하는 기준점 역할을 한다. 이 섹션에서는 현재 학계와 산업계에서 표준으로 사용되는 핵심 정량 지표들을 수학적 원리부터 실용적 의미와 한계까지 심층적으로 분석한다.
2.1 분포 기반 유사도 지표
이 지표들은 생성된 이미지 집합의 통계적 분포가 실제 이미지 집합의 분포와 얼마나 유사한지를 측정하는 데 중점을 둔다.
2.1.1 Inception Score (IS): 품질과 다양성의 첫걸음
IS는 생성된 이미지들이 두 가지 속성을 만족하는지를 단일 점수로 측정하려는 초기 시도다. 첫째, 각 이미지가 특정 객체를 명확하게 포함해야 하며(품질, Quality), 둘째, 모델이 다양한 종류의 객체를 생성해야 한다(다양성, Diversity).13
수학적으로 IS는 사전 학습된 Inception-v3 이미지 분류 모델을 활용한다. 생성된 이미지 x가 주어졌을 때의 레이블 조건부 확률분포 p(y|x)와, 전체 생성 이미지에 대한 레이블의 주변 확률분포 p(y) 사이의 Kullback-Leibler (KL) Divergence를 계산하여 그 기댓값에 지수 함수를 취한다.9
IS(G) = \exp\left(\mathbb{E}_{x \sim p_g} D_{KL}(p(y|x) || p(y))\right)
여기서 p_g는 생성 모델의 분포를 의미한다. 이상적으로, 품질이 좋은 이미지는 하나의 특정 레이블로 분류될 확률이 높으므로 p(y|x)의 엔트로피는 낮다. 반면, 다양성이 높은 모델은 여러 클래스의 이미지를 균등하게 생성하므로 p(y)의 엔트로피는 높다. 이 두 분포 간의 차이, 즉 KL Divergence가 클수록 IS 점수는 높아지며, 이는 모델의 성능이 좋음을 의미한다.10
하지만 IS는 명백한 한계를 가진다. 가장 큰 문제는 실제 이미지 분포를 전혀 고려하지 않고 오직 생성된 이미지들만으로 평가를 수행한다는 점이다.10 또한, 평가에 사용되는 Inception-v3 모델이 ImageNet 1000개 클래스로 학습되었기 때문에, 이 데이터셋에 존재하지 않는 객체(예: 특정 만화 캐릭터)를 고품질로 생성하더라도 낮은 점수를 받을 수 있다.16 더불어, 각 클래스 내의 다양성은 측정하지 못하고, 단순히 1000개의 다른 클래스 이미지를 한 장씩만 잘 생성해도 매우 높은 점수를 받는 ’치팅’이 가능하다는 문제점도 지적된다.5
2.1.2 Fréchet Inception Distance (FID): 실제와의 거리 측정
FID는 IS의 한계를 극복하기 위해 제안된 지표로, 현재 생성 모델 평가에서 사실상의 표준(de facto standard)으로 자리 잡았다.18 FID의 핵심 아이디어는 생성된 이미지의 특징 분포와 실제 이미지의 특징 분포 사이의 거리를 직접 측정하는 것이다. 이 점수가 낮을수록(0에 가까울수록) 두 분포가 유사하며, 이는 생성된 이미지의 품질과 다양성이 모두 높다는 것을 의미한다.4
FID의 계산 과정은 다음과 같은 3단계로 이루어진다.
-
특징 추출: 실제 이미지 집합(X_r)과 생성된 이미지 집합(X_g)을 사전 학습된 Inception-v3 모델에 입력하여, 마지막 풀링 레이어에서 2048차원의 활성화 벡터(특징 벡터)를 각각 추출한다.11
-
통계량 계산: 추출된 특징 벡터 집합을 각각 다변량 정규분포(Multivariate Gaussian Distribution)로 가정한다. 그리고 각 분포의 평균(\mu_r, \mu_g)과 공분산 행렬(\Sigma_r, \Sigma_g)을 계산한다.1
-
FID 계산: 두 정규분포 간의 Fréchet distance(이는 Wasserstein-2 distance와 동일)를 아래 공식으로 계산한다.11
FID(X_r, X_g) = \left\| \mu_r - \mu_g \right\|_2^2 + \text{Tr}\left(\Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{1/2}\right)
FID는 실제 데이터 분포를 직접 참조하기 때문에 IS에 비해 인간의 지각적 판단과 상관관계가 훨씬 높으며, 노이즈나 이미지 왜곡에 더 강건하다. 또한, IS가 놓치기 쉬운 클래스 내 모드 붕괴(intra-class mode dropping), 즉 한 클래스 내에서 매우 유사한 이미지만 생성하는 현상을 더 효과적으로 감지할 수 있다.13
물론 FID에도 한계는 존재한다. 신뢰할 수 있는 점수를 얻기 위해서는 최소 10,000개 이상의 대규모 샘플이 필요하여 계산 비용이 높다.22 또한, 특징 추출기로 Inception-v3 모델에 전적으로 의존하기 때문에, 이 모델이 학습한 ImageNet 데이터셋의 편향을 그대로 물려받는다는 근본적인 문제가 있다.22 예를 들어, 의료 영상이나 위성사진과 같이 ImageNet과 도메인이 상이한 데이터를 평가할 때 FID 점수의 신뢰도는 떨어질 수 있다. 특징 분포를 다변량 정규분포로 가정하는 것 또한 실제 분포와는 차이가 있을 수 있다는 비판도 제기된다.24
2.2 내용 기반 일치도 및 유사도 지표
이 지표들은 이미지의 전반적인 분포보다는, 개별 이미지의 내용이나 지각적 품질에 더 초점을 맞춘다.
2.2.1 CLIP Score: 텍스트-이미지 의미론적 일치도
CLIP Score는 Text-to-Image 모델의 등장과 함께 필수적인 지표로 부상했다. 이 지표의 목표는 “모델이 주어진 텍스트 프롬프트의 내용을 얼마나 충실하게 이미지로 구현했는가?“를 정량적으로 평가하는 것이다.4
계산 방식은 OpenAI가 개발한 CLIP(Contrastive Language-Image Pre-training) 모델을 기반으로 한다. CLIP은 이미지 인코더와 텍스트 인코더를 통해 이미지와 텍스트를 동일한 다차원 임베딩 공간으로 매핑할 수 있다. 평가 시, 생성된 이미지(I)와 입력 프롬프트(C)를 각각의 인코더에 통과시켜 임베딩 벡터(E_I, E_C)를 얻는다. 그 후, 두 벡터 간의 코사인 유사도(Cosine Similarity)를 계산하고, 이 값을 100배하여 점수화한다. 점수는 0에서 100 사이의 값을 가지며, 높을수록 의미론적 일치도가 높음을 의미한다.4
\text{CLIPScore(I, C)} = \max(100 \cdot \cos(E_I, E_C), 0)
CLIP Score는 이미지의 사실성이나 시각적 품질 자체보다는 내용의 일치도, 즉 프롬프트 충실도(prompt fidelity)를 측정하는 데 특화되어 있다.26 FID 점수가 낮아도(품질과 다양성이 높아도) CLIP Score가 낮다면, 이는 모델이 프롬프트의 지시를 제대로 따르지 못했음을 의미한다.
2.2.2 Learned Perceptual Image Patch Similarity (LPIPS): 인간의 지각적 유사성 모사
LPIPS는 두 이미지 간의 픽셀 단위 차이(예: L2 거리)가 인간이 느끼는 시각적 유사성과는 거리가 멀다는 문제의식에서 출발했다.28 이 지표의 목표는 딥러닝 네트워크가 학습한 깊은 특징(deep features)을 활용하여 두 이미지 간의 ’지각적 거리(perceptual distance)’를 측정하는 것이다. LPIPS 점수가 낮을수록 두 이미지가 인간의 눈에 더 비슷하게 보인다는 것을 의미한다.13
계산 방식은 다음과 같다. 비교하려는 두 이미지(x, x_0)를 VGG나 AlexNet과 같이 사전 학습된 네트워크에 통과시킨다. 네트워크의 여러 레이어(l)에서 추출된 특징 맵(\hat{y}^l, \hat{y}_0^l)의 차이를 계산한다. 이 차이에 채널별 가중치(w_l)를 곱하여 합산한 후, 공간적으로 평균을 내어 최종 거리를 산출한다.29
d(x, x_0) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \left\| w_l \odot (\hat{y}_{hw}^l - \hat{y}_{0,hw}^l) \right\|_2^2
여기서 핵심은 가중치 w_l이 인간의 지각 판단 데이터셋(BAPPS)을 통해 별도로 학습된다는 점이다. 이는 어떤 레이어의 특징 차이가 인간의 유사성 판단에 더 중요한 영향을 미치는지를 데이터 기반으로 학습하여 반영하는 것을 의미한다.29 LPIPS는 FID나 IS처럼 분포 전체를 평가하는 것이 아니라, 두 이미지 간의 거리를 측정하므로, 주로 이미지 복원, 초해상도, 스타일 변환과 같이 기준이 되는 원본 이미지가 존재하는 태스크에서 생성된 이미지의 왜곡 정도를 평가하는 데 매우 유용하다.
2.3 정밀도와 재현율 (Precision and Recall): 생성 모델의 충실도와 다양성 분해
FID와 같은 단일 점수는 모델 성능에 대한 종합적인 정보를 제공하지만, 실패의 원인을 명확히 진단하기는 어렵다. 예를 들어, FID 점수가 높을 때, 이것이 생성된 이미지들의 품질이 전반적으로 낮기 때문인지(낮은 정밀도), 아니면 고품질이지만 특정 종류의 이미지만 반복적으로 생성하여 다양성이 부족하기 때문인지(낮은 재현율) 구분할 수 없다.31 Precision과 Recall은 이 두 가지 실패 모드를 분리하여 평가하기 위해 생성 모델의 맥락에 맞게 재정의된 개념이다.32
-
Precision (정밀도): 생성된 이미지가 실제 이미지 분포의 지지 집합(support)에 속할 확률을 의미한다. 이는 생성된 이미지의 품질과 사실성(Fidelity)을 측정하는 척도로, “생성된 결과물들이 얼마나 진짜 같은가?“라는 질문에 답한다.4
-
Recall (재현율): 실제 이미지들이 생성된 이미지 분포에 의해 얼마나 잘 표현되는지를 의미한다. 이는 생성 모델이 실제 데이터의 다양성(Diversity)을 얼마나 잘 포착하는지를 측정하며, “실제 세계의 다양한 이미지들을 얼마나 빠짐없이 생성할 수 있는가?“라는 질문에 답한다.4
이들을 계산하기 위해, 실제 이미지와 생성 이미지의 특징 벡터를 추출한 후, 각 샘플에 대해 k-최근접 이웃(k-NN)과 같은 방법을 사용하여 해당 샘플이 상대방 분포의 매니폴드(manifold) 내에 위치하는지를 판별하는 방식으로 근사한다.34 Precision과 Recall을 함께 사용하면 모델의 강점과 약점을 보다 명확하게 진단할 수 있다. 예를 들어, 특정 모델이 Precision은 높지만 Recall이 낮다면, 이는 고품질의 이미지를 생성하지만 다양성이 부족하다는 의미이므로, 데이터 증강이나 새로운 학습 기법을 통해 다양성을 높이는 방향으로 모델 개선을 시도할 수 있다.32
2.4 정량적 지표의 본질적 한계: ’대리 지표’로서의 역할
앞서 살펴본 정량적 지표들은 그 자체로 완벽하지 않으며, 각각 ’대리 지표(proxy metric)’로서의 본질적 한계를 공유한다. 이미지의 ’품질’이나 ’의미’와 같은 추상적인 개념을 직접 측정하는 것은 불가능하기에, 이들 지표는 잘 학습된 다른 딥러닝 모델을 ’대리 평가자’로 내세운다. FID와 IS는 Inception-v3라는 ’대리 분류기’를 통해 이미지의 품질과 다양성을 간접적으로 측정하고, LPIPS는 사전 학습된 네트워크를 ’대리 인간 시각 시스템’으로 활용하며, CLIP Score는 CLIP 모델을 ’대리 의미 이해자’로 사용한다.4
이러한 접근 방식은 평가의 자동화와 객관화를 가능하게 했지만, ’대리 평가자’의 성능과 편향이 평가 결과에 직접적인 영향을 미친다는 근본적인 문제를 야기한다. 예를 들어, ImageNet으로 학습된 Inception-v3는 해당 데이터셋에 존재하는 편향(예: 서구 중심의 객체 구성)을 그대로 가지고 있다. 만약 평가하려는 데이터의 도메인이 ImageNet과 매우 다르다면(예: 동양화, 현미경 이미지), Inception-v3가 추출하는 특징은 해당 도메인의 ’품질’을 제대로 대표하지 못할 수 있다.22 이는 FID 점수가 기술적으로는 정확하게 계산되었더라도, 실제 우리가 원하는 품질과는 동떨어진 결과를 낼 수 있음을 의미한다.
따라서 정량적 지표의 점수를 맹신하는 것은 위험하다. 이 점수는 ’특정 대리 모델의 관점에서 본 성능’으로 제한적으로 해석해야 한다. 이는 왜 단일 지표에 의존하는 것이 위험한지, 그리고 평가하려는 태스크와 도메인의 특성을 고려하여 적절한 지표 포트폴리오를 구성하고, 더 나아가 해당 도메인에 맞게 특징 추출기를 미세 조정(fine-tuning)하는 연구가 필요한지를 설명해준다. 궁극적으로 이는 정량적 평가의 내재적 한계를 명확히 하고, 인간 중심 평가의 필요성을 뒷받침하는 강력한 논거가 된다.
2.5 주요 정량적 평가 지표 비교 요약
| 지표 (Metric) | 핵심 목표 (Core Objective) | 해석 (Interpretation) | 주요 장점 (Key Advantages) | 주요 단점 (Key Disadvantages) |
|---|---|---|---|---|
| Inception Score (IS) | 생성된 이미지의 품질(Quality)과 다양성(Diversity) | 높을수록 좋음 | 계산이 비교적 간단하며, 생성된 이미지 자체만으로 평가 가능 | 실제 데이터 분포를 고려하지 않음, ImageNet 데이터셋에 편향됨 |
| Fréchet Inception Distance (FID) | 실제 이미지와 생성된 이미지의 특징 분포 간 거리 | 낮을수록 좋음 (0에 가까울수록 유사) | 실제 데이터와 비교하여 IS보다 인간의 평가와 상관관계가 높음, 노이즈에 강건함 | 대규모 샘플 필요, 특징 추출기(InceptionV3)에 의존적, 정규분포 가정의 한계 |
| CLIP Score | 텍스트 프롬프트와 생성된 이미지 간의 의미론적 일치도 | 높을수록 좋음 | 프롬프트의 내용을 얼마나 잘 반영했는지 직접적으로 평가 가능 | 이미지의 시각적 품질이나 사실성을 직접 측정하지는 않음 |
| LPIPS | 두 이미지 간의 지각적 유사성(Perceptual Similarity) | 낮을수록 좋음 | 인간의 시각 시스템과 유사하게 작동하여 미세한 왜곡도 잘 감지함 | 기준(Reference) 이미지가 필요하며, 분포 전체가 아닌 개별 이미지 쌍을 비교 |
| Precision & Recall | 품질(Fidelity)과 다양성(Diversity)의 분리된 측정 | 둘 다 높을수록 좋음 | 모델의 실패 원인(품질 저하 vs. 다양성 부족)을 명확히 진단 가능 | 계산이 복잡하고, 특징 공간에서의 kNN 기반 근사에 의존함 |
3. 정성적 평가 및 인간 중심 평가 방법론
정량적 지표는 객관성과 확장성이라는 명확한 장점을 가지지만, 인간이 이미지를 인식하고 판단하는 복잡하고 미묘한 과정을 완벽하게 대체하지는 못한다. 이미지의 예술성, 감성적 울림, 또는 미세한 부자연스러움 등은 숫자로 포착하기 어렵다. 이러한 간극을 메우기 위해 인간 중심의 정성적 평가 방법론이 필수적으로 활용된다. 이 섹션에서는 전통적인 방식부터 체계적인 프레임워크, 그리고 이를 자동화하려는 최신 시도까지의 발전 과정을 살펴본다.
3.1 전통적 정성 평가 기법과 그 한계
가장 직관적인 평가 방식은 인간 평가자가 직접 생성된 결과물을 보고 판단하는 것이다. 여기에는 주로 세 가지 방식이 사용된다.
-
시각적 검사 (Visual Inspection): 평가자가 생성된 이미지를 직접 보고 주관적인 기준에 따라 품질을 판단한다.6
-
쌍대 비교 (Pairwise Comparison): 두 모델이 생성한 이미지를 나란히 보여주고 어느 쪽이 더 나은지 선택하게 하는 방식이다.7
-
선호도 순위 지정 (Preference Ranking): 여러 모델이 생성한 이미지들에 대해 품질 순위를 매기게 한다.8
이러한 방법들은 모델의 성능을 직관적으로 파악하는 데 도움을 주지만, 명백한 한계를 가진다. 가장 큰 문제는 평가자의 주관에 따라 결과가 크게 달라져 일관성과 재현성을 확보하기 어렵다는 점이다.5 또한, 수천, 수만 장의 이미지를 평가하는 것은 막대한 시간과 비용을 초래하여 대규모 평가에는 비효율적이다.7 더 근본적으로는, 평가 기준이 “더 좋다” 또는 “더 나쁘다” 수준에 머물러, “왜 좋은지” 또는 “무엇이 문제인지“에 대한 구체적이고 실행 가능한 피드백을 얻기 어렵다는 문제가 있다.15
3.2 구조화된 인간 평가: GenomeBench를 중심으로
전통적 평가의 주관성과 모호성을 극복하기 위해, 평가 작업을 체계적으로 구조화하고 세분화하는 방법론이 제안되었다. 대표적인 예가 GenomeBench로, 평가의 일관성을 높이고 모델의 강점과 약점에 대한 세밀하고 설명 가능한 피드백을 제공하는 것을 목표로 한다.15
GenomeBench의 접근법은 다음과 같다.
-
프롬프트 분해 (Prompt Decomposition): “교수 복장을 한 만화 고양이가 책상에 앉아 있다“와 같은 복잡한 프롬프트를 장면 그래프(Scene Graph) 개념을 이용해 의미론적 구성요소로 파싱한다. 예를 들어, ‘고양이’(객체), ‘만화 스타일’(속성), ‘교수 복장’(속성), ‘책상’(객체), ‘앉아 있다’(관계) 등으로 분해한다.15
-
세분화된 질문 (Granular Questioning): 각 구성요소에 대해 구체적이고 점진적인 질문을 제시한다. “이미지에 고양이가 있는가?“와 같은 단순한 존재 유무 질문을 넘어, “객체(‘고양이’)의 형태 왜곡 정도는 어떠한가? (없음, 경미, 보통, 심각)”, “속성(‘교수 복장’)이 얼마나 정확하게 표현되었는가? (정확함, 인식 가능, 거의 불가, 불가)“와 같이 품질과 관련된 다단계 평가를 요구한다.15
-
설명 가능한 점수 (Explainable Score): 각 요소에 대한 평가 점수를 종합하여, 전체적인 품질 및 정렬(alignment) 점수를 계산한다. 이를 통해 단순히 총점이 높은 것이 아니라, 해당 모델이 어떤 측면(예: 객체 간의 공간 관계 묘사, 여러 속성 결합)에서 강점을 보이고 어떤 부분에서 실패했는지 명확하게 진단할 수 있다.15
이러한 구조화된 접근은 평가의 신뢰도를 높일 뿐만 아니라, 모델 개발자에게 매우 가치 있는 진단 정보를 제공한다.
3.3 인간 선호도 학습 기반 평가 (Human-in-the-Loop & Learned Preference Models)
구조화된 인간 평가는 품질은 높지만 여전히 비용과 시간 문제가 남는다. 이러한 확장성 문제를 해결하기 위한 시도로, 인간의 피드백을 대규모로 수집하고 이를 통해 ‘인간의 선호도’ 자체를 예측하는 모델을 학습시키는 방법론이 등장했다. 이는 인간의 통찰력을 AI 개발 라이프사이클 전반에 지속적으로 통합하는 Human-in-the-Loop(HITL) 철학과 맞닿아 있다.37
대표적인 예로 HPS-v2(Human Preference Score v2)나 Pick Score와 같은 학습 기반 평가 모델이 있다.5 이들의 작동 원리는 다음과 같다.
-
대규모 데이터 수집: 수십만 개의 이미지 쌍에 대해 “어느 이미지가 더 나은가?“라는 인간의 선호도 판단 데이터를 수집한다.5
-
선호도 모델 학습: 이 데이터를 이용해 CLIP과 같은 강력한 기반 모델을 미세 조정한다. 이렇게 학습된 모델은 새로운 이미지가 주어졌을 때, 인간이 얼마나 선호할지를 점수로 예측하게 된다.5
이러한 접근은 인간 평가의 확장성 문제를 해결하기 위한 유망한 방향이다. 잘 학습된 선호도 모델은 대규모 이미지에 대해 빠르고 일관된 ’자동화된 정성 평가’를 제공할 수 있다. 이는 평가 과정을 대폭 효율화할 뿐만 아니라, 강화학습(RLHF)과 결합하여 모델 학습 과정에 직접적인 보상 신호로 사용될 수도 있다. 하지만, 이 방법 역시 학습에 사용된 인간 선호도 데이터의 편향에서 자유롭지 않다는 한계를 가지며, 데이터 수집 및 모델 학습에 상당한 자원이 필요하다.
인간 중심 평가 방법론의 발전 과정은 ’평가’의 목적이 단순히 ’순위 매기기(Ranking)’에서 ’진단 및 개선(Diagnosis & Improvement)’으로 이동하고 있음을 명확히 보여준다. 초기의 인간 평가는 “A와 B 모델 중 어느 것이 더 나은가?“라는 질문에 답하며 경쟁과 벤치마킹에 기여했다.7 그러나 “A 모델이 B보다 점수가 낮다“는 정보만으로는 개발자가 무엇을 개선해야 할지 알 수 없었다. 이러한 정보의 부재가 GenomeBench와 같은 구조화된 평가의 필요성을 낳았다.15 구조화된 평가는 “A 모델은 여러 객체 간의 공간적 관계를 표현하는 데 약점이 있다“와 같은 구체적이고 실행 가능한 진단 정보를 제공한다.15 이러한 진단 정보는 특정 유형의 데이터로 추가 학습을 하거나 모델 아키텍처를 수정하는 등 명확한 개선 방향을 제시한다. 더 나아가, HPS-v2와 같은 인간 선호도 학습 모델은 이러한 진단 과정을 자동화하고 확장하려는 시도로 볼 수 있다. 결국 인간 중심 평가는 단순한 ’심판’의 역할을 넘어, 모델 개발 과정에 깊숙이 통합되어 방향을 제시하고 개선을 가속하는 ’코치’이자 ’협력자’로 진화하고 있다. 이는 평가가 모델 개발 사이클의 마지막 단계가 아니라, 개발 과정 전체를 아우르는 Human-in-the-Loop 철학의 핵심 요소임을 시사한다.37
4. 고급 평가 차원: 편향성, 안전성, 그리고 미학
이미지 생성 모델이 기술적 완성도를 넘어 사회적으로 수용되고 유용하게 사용되기 위해서는, 표준적인 품질과 다양성을 넘어서는 고급 평가 차원들에 대한 고려가 필수적이다. 이는 모델이 생성하는 결과물이 사회적 맥락 속에서 어떤 영향을 미치는지를 평가하는 것으로, 책임감 있는 AI 개발의 핵심 요소다. 이 섹션에서는 공정성, 미학, 그리고 표준 벤치마크의 중요성을 탐구한다.
4.1 AI 편향성 평가: 공정성 확보를 위한 척도
생성 모델의 편향은 주로 대규모 학습 데이터에 내재된 사회적, 문화적, 역사적 편견에서 비롯된다.40 예를 들어, 웹에서 수집된 데이터는 특정 직업군에 특정 성별이나 인종이 과도하게 나타나는 경향이 있으며, 모델은 이러한 통계적 연관성을 그대로 학습하여 유해한 고정관념을 재생산하거나 강화할 수 있다.40 또한, 알고리즘 자체의 설계나 인간의 주관이 개입된 데이터 레이블링 과정에서도 편향이 주입될 수 있다.40
이러한 편향을 평가하기 위한 접근법은 다음과 같다.
-
정량적 접근: 특정 프롬프트에 대해 생성된 이미지의 인구통계학적 분포를 분석하는 방식이다. 예를 들어, ‘의사’, ‘CEO’, ’간호사’와 같은 직업 프롬프트에 대해 생성된 인물 이미지들의 성별, 인종 비율을 측정하여, 특정 그룹이 비현실적으로 과대 또는 과소 표현되는지를 정량화한다.42 이를 통해 모델이 특정 집단에 대해 편향된 결과를 생성하는 경향을 객관적으로 파악할 수 있다.
-
정성적 접근: 생성된 이미지가 질적으로 해로운 고정관념을 담고 있는지, 또는 특정 집단을 모욕적이거나 부정적으로 묘사하는지를 전문가(예: 사회학자, 윤리학자, 해당 문화권 전문가)가 직접 분석한다.42 이는 수치로 드러나지 않는 미묘하지만 심각한 편향을 발견하는 데 중요하다.
편향된 AI는 사회적 불평등을 심화시키고 차별을 영속화할 수 있는 잠재적 위험을 안고 있다.45 따라서 기술적 성능만큼이나 공정성에 대한 평가는 책임감 있는 AI 개발의 필수불가결한 요소다.
4.2 미학적 품질 평가 (Aesthetic Score)
미학적 품질 평가는 이미지의 기술적 완성도(선명도, 아티팩트 유무 등)를 넘어, 인간이 주관적으로 느끼는 ’아름다움’이나 ’시각적 매력’을 정량적으로 평가하려는 시도다.5 이는 사용자의 만족도와 직접적으로 연결되는 중요한 지표다.
Aesthetic Score는 주로 다음과 같은 방식으로 계산된다. 먼저, LAION-Aesthetics와 같은 대규모 데이터셋을 구축한다. 이 데이터셋은 수많은 이미지에 대해 인간 평가자들이 “이 이미지가 얼마나 마음에 드십니까?“라는 질문에 1점에서 10점 사이로 매긴 점수를 포함한다.5 그 다음, 이 데이터를 이용해 이미지의 특징(주로 CLIP 임베딩)을 입력으로 받아 미학 점수를 예측하는 회귀 모델을 학습시킨다.5 이렇게 학습된 모델은 새로운 생성 이미지에 대해 인간의 평균적인 미학적 선호도를 예측하는 점수를 제공할 수 있다. 이를 통해 생성된 이미지의 예술적 품질이나 시각적 매력을 객관적으로 비교하고 개선하는 데 활용할 수 있다.
4.3 표준 벤치마크의 활용
서로 다른 연구 기관이나 개발팀에서 만든 모델들의 성능을 공정하고 일관된 기준으로 비교하기 위해서는 표준화된 테스트 세트, 즉 벤치마크가 필수적이다.8 벤치마크는 마치 전국 단위 모의고사처럼, 각 모델의 상대적인 성능을 객관적으로 파악하고, 학계와 산업계 전체의 발전을 촉진하는 중요한 역할을 한다.8
이미지 생성 모델을 위한 벤치마크는 일반적으로 다음과 같은 요소들로 구성된다.
-
신중하게 설계된 프롬프트 세트: 다양한 종류의 객체, 속성, 색상, 질감, 객체 간의 복잡한 관계, 추상적인 개념 등을 포괄하도록 세심하게 설계된 수백, 수천 개의 텍스트 프롬프트로 구성된다. DrawBench, Parti Prompts, GenAI-Bench 등이 대표적인 예다.5
-
표준화된 평가 절차: 어떤 평가 지표(예: FID, CLIP Score)를 사용할 것인지, 인간 평가는 어떤 방식으로 수행할 것인지에 대한 명확한 가이드라인을 제공하여 평가의 재현성을 보장한다.
벤치마크를 통해 모델의 강점과 약점을 체계적으로 분석할 수 있으며, 이는 특정 기술적 접근법의 효과를 검증하고 향후 연구 방향을 설정하는 데 중요한 기준을 제공한다.
이러한 ’고급 평가 차원’의 부상은 생성 AI 기술이 단순한 기술적 가능성을 탐구하는 실험실 단계를 넘어, 사회에 실질적인 영향을 미치는 ‘제품’ 단계로 진입했음을 의미한다. 초기 연구가 FID나 IS와 같은 기술적 성능 지표 개선에 집중했다면, 이제는 모델이 널리 보급되면서 그 결과물이 사회적 맥락에서 어떻게 작동하는지가 핵심적인 문제로 떠올랐다.45 모델이 유해한 고정관념을 재생산하고(편향성 문제), 사용자에게 미학적 불쾌감을 주며(미학 문제), 안전하지 않은 콘텐츠를 생성하는(안전성 문제) 등의 이슈는 ’이 기술이 우리 사회에 유익한가, 해롭지 않은가?’라는 더 근본적인 질문과 연결된다. 따라서 편향성, 미학, 안전성 평가는 단순한 추가 고려사항이 아니라, 생성 AI 기술이 사회적 신뢰와 수용성을 확보하기 위한 필수 조건이다. 이는 AI 개발의 책임이 더 이상 엔지니어 개인에게만 국한되지 않으며, 사회학자, 윤리학자, 법률 전문가 등 다양한 분야와의 협력이 필수적인 다학제적 과제임을 보여준다.44
5. 종합적 평가 프레임워크 구축 및 미래 전망
지금까지 논의된 다양한 평가 방법론들을 바탕으로, 실제 상황에서 어떻게 효과적인 평가 프레임워크를 구축할 수 있는지에 대한 실용적인 가이드라인을 제시하고, 생성 모델 평가의 미래 방향을 조망한다.
5.1 단일 지표의 함정: 다차원적 평가의 중요성
가장 중요한 원칙은 어떠한 단일 지표도 생성 모델의 모든 측면을 완벽하게 평가할 수 없다는 사실을 인지하는 것이다. 각 지표는 서로 다른 강점과 약점을 가지며, 때로는 서로 상충되는 결과를 보여주기도 한다.48 예를 들어, Stable Diffusion 모델은 인간이 인지하는 사실성(photorealism) 평가에서는 높은 점수를 받았지만, 기술적인 이미지 품질(예: 아티팩트) 점수는 상대적으로 낮게 나타나는 경우가 있었다.48 반대로 DALL-E는 프롬프트 이해도(CLIP Score)는 높지만 사실성 점수는 낮은 경향을 보였다.48
이처럼 FID는 분포의 통계적 유사성을, CLIP Score는 의미론적 일치도를, LPIPS는 지각적 유사성을, 그리고 인간 평가는 주관적 만족도와 같은 각기 다른 차원을 측정한다. 따라서 특정 모델에 대한 균형 잡힌 시각을 얻기 위해서는 이들을 종합적으로 고려하는 다차원적 접근이 필수적이다.4
5.2 평가 목적에 따른 지표 선택 가이드라인
효과적인 평가 프레임워크는 평가의 ’목적’에서 출발해야 한다. 개발하려는 모델의 주요 용도와 목표에 따라 중점적으로 봐야 할 지표가 달라진다.
-
포토리얼리즘이 중요한 경우 (예: 사실적인 제품 이미지, 의료 영상 생성)
-
핵심 지표: FID, LPIPS, Precision
-
보조 지표: 아티팩트(artifact) 유무를 중점적으로 확인하는 구조화된 인간 평가
-
이유: FID는 실제 이미지 분포와의 통계적 거리를 측정하여 전반적인 사실성을 평가하고, LPIPS는 미세한 왜곡이나 부자연스러움을 인간의 지각과 유사하게 감지한다. Precision은 생성된 결과물의 품질에 집중한다.
-
프롬프트의 복잡한 지시 이행이 중요한 경우 (예: 상세한 묘사가 포함된 일러스트, 디자인 시안 생성)
-
핵심 지표: CLIP Score, VQA(Visual Question Answering) Score
-
보조 지표: 객체, 속성, 관계의 정확성을 세밀하게 평가하는 GenomeBench 방식의 인간 평가
-
이유: CLIP Score는 텍스트와 이미지 간의 의미론적 일치도를 직접 측정한다. VQA Score는 “이미지에 파란 모자를 쓴 고양이가 있는가?“와 같은 질문-답변 쌍을 통해 프롬프트의 특정 요소가 구현되었는지 검증한다.5
-
예술성 및 창의적 표현이 중요한 경우 (예: 아트 생성기, 창작 도구)
-
핵심 지표: Aesthetic Score, 인간 선호도 평가
-
보조 지표: Recall (다양성)
-
이유: Aesthetic Score는 인간의 평균적인 미학적 선호도를 예측하여 예술적 품질을 평가한다. 최종적인 창의성과 만족도는 주관적인 영역이므로 인간의 직접적인 선호도 평가가 핵심적인 역할을 한다. Recall은 다양한 스타일과 주제를 생성하는 능력을 평가하는 데 중요하다.
-
사회적으로 민감한 주제를 다루는 경우 (예: 인물 사진 생성, 역사적 사건 묘사)
-
핵심 지표: 편향성 및 공정성 지표, 안전성 평가
-
보조 지표: FID, CLIP Score 등 기본 품질 지표
-
이유: 이 경우 기술적 성능보다 사회적 책임이 우선된다. 특정 인구통계학적 그룹에 대한 편향된 묘사나 유해 콘텐츠 생성 가능성을 최우선으로 검토해야 한다.
5.3 생성 모델 평가 방법론의 향후 연구 방향
생성 모델 기술이 빠르게 발전함에 따라 평가 방법론 또한 새로운 도전에 직면하고 있으며, 다음과 같은 방향으로 연구가 진행될 것으로 전망된다.
-
다중 모달리티(Multi-modality) 평가: 현재 평가는 주로 텍스트-이미지 관계에 집중되어 있다. 앞으로는 텍스트, 이미지, 음성, 영상을 동시에 이해하고 생성하는 다중 모달리티 모델이 보편화될 것이며, 이들의 복합적인 능력을 종합적으로 평가할 수 있는 새로운 벤치마크와 지표 개발이 시급하다.8
-
상호작용 및 일관성 평가: 현재의 평가는 대부분 고정된 프롬프트에 대한 일회성 생성 결과를 평가하는 정적(static) 패러다임에 머물러 있다. 하지만 실제 애플리케이션에서 생성 AI의 가치는 사용자와의 대화를 통해 점진적으로 결과물을 수정하고 발전시키는 동적(dynamic) 상호작용 능력에서 나온다.49 “고양이를 조금 더 오른쪽으로 옮겨줘“와 같은 후속 지시를 얼마나 잘 이행하는지, 또는 여러 장의 이미지 시리즈를 생성할 때 캐릭터나 스타일의 일관성을 얼마나 잘 유지하는지를 평가하는 방법론이 중요해질 것이다.8
-
평가의 자동화와 인간 판단의 정렬: 인간의 복잡하고 미묘한 판단을 더 정확하게 모사하는 자동화된 평가 지표(예: 더 발전된 선호도 모델)를 개발하는 연구와, 동시에 인간 평가 과정을 더 효율적이고 체계적으로 만들어 평가의 질을 높이는 연구가 병행될 것이다.
-
불확실성 정량화: 현재의 FID, CLIP Score 등은 단일 점수만을 제공할 뿐, 그 점수가 통계적으로 얼마나 신뢰할 수 있는지에 대한 불확실성(예: 신뢰 구간)을 제공하지 않는다. 샘플링에 따른 평가 결과의 변동성을 정량화하고, 두 모델 간의 점수 차이가 통계적으로 유의미한지를 판단하기 위한 연구가 필요하다.2
궁극적으로 생성 모델의 평가는 정적인 벤치마크를 넘어, 실제 사용자와의 동적인 상호작용 속에서 이루어지는 방향으로 나아갈 것이다. 모델의 진정한 가치는 최종 결과물뿐만 아니라, 사용자가 원하는 결과물에 도달하기까지의 ‘협업 과정’ 전체에 있기 때문이다. 따라서 미래의 평가 방법론은 이미지 품질과 같은 정적인 속성을 넘어, 모델의 ‘협업 능력’, ‘수정 가능성’, ’상호작용 경험’을 측정하는 방향으로 진화해야 한다. 이는 생성 AI가 단순한 ’이미지 생성기’에서 인간의 창의성을 확장하는 ’창의적 파트너’로 발전해나가는 과정과 그 궤를 같이할 것이다.
6. 참고 자료
- Frechet Inception Distance (FID) Calculation for Generative Models - GitHub, https://github.com/victor-explore/Frechet-Inception-Distance-for-GANs
- Trustworthy Evaluation of Generative AI Models - arXiv, https://arxiv.org/html/2501.18897v1
- 생성형 모델이란? - IBM, https://www.ibm.com/kr-ko/think/topics/generative-model
- [Gen AI] 이미지 생성 모델의 평가 지표 정리 | FID, IS, CLIP Score …, https://mvje.tistory.com/290
- AI로 생성한 이미지는 어떻게 평가할까요? (기본편), https://techblog.lycorp.co.jp/ko/how-to-evaluate-ai-generated-images-1
- Diffusion 모델 평가하기, https://huggingface.co/docs/diffusers/ko/conceptual/evaluation
- 생성형 AI도 성적표를 받는다? LLM 성능을 결정하는 평가 지표 알아보기, https://console.runyour.ai/homefeed/llm-evaluation-indicator
- AI 벤치마크 테스트_ 생성 AI 모델의 성능 평가의 현황과 미래, https://aiheroes.ai/community/204
- [딥러닝] 이미지 생성 모델의 평가 방법에 대해서, https://pitas.tistory.com/12
- Inception score (IS) - Deeper Learning - 티스토리, https://dlaiml.tistory.com/entry/Inception-score-IS
- FID (Frechet Inception Distance) 란 무엇인가? - 현재를 가치있게 쓰자 - 티스토리, https://jjujju31.tistory.com/81
- Fréchet inception distance (FID) - Deeper Learning - 티스토리, https://dlaiml.tistory.com/entry/Fr%C3%A9chet-inception-distance-FID
- 생성형 모델의 평가지표 - 개인적인 IT기록 - 티스토리, https://mytomato.tistory.com/68
- Perceptual Similarity guidance and text guidance optimization for Editing Real Images using Guided Diffusion Models - arXiv, https://arxiv.org/html/2312.06680v1
- Structured Human Assessment of Text-to-Image … - CVF Open Access, https://openaccess.thecvf.com/content/WACV2025/papers/Corneanu_Structured_Human_Assessment_of_Text-to-Image_Generative_Models_WACV_2025_paper.pdf
- GAN은 알겠는데, 그래서 어떤 GAN이 더 좋은건데? Evaluating Generative Adversarial Networks - velog, https://velog.io/@viriditass/GAN%EC%9D%80-%EC%95%8C%EA%B2%A0%EB%8A%94%EB%8D%B0-%EA%B7%B8%EB%9E%98%EC%84%9C-%EC%96%B4%EB%96%A4-GAN%EC%9D%B4-%EB%8D%94-%EC%A2%8B%EC%9D%80%EA%B1%B4%EB%8D%B0-How-to-evaluate-GAN
- Inception Score & Frechet Inception Distance - Daeyoung Kim, https://cyc1am3n.github.io/2020/03/01/is_fid.html
- Fréchet inception distance - Wikipedia, https://en.wikipedia.org/wiki/Fr%C3%A9chet_inception_distance
- How to Implement the Frechet Inception Distance (FID) for …, https://machinelearningmastery.com/how-to-implement-the-frechet-inception-distance-fid-from-scratch/
- Frechet Inception Distance (FID) — PyTorch-Metrics 1.8.2 documentation - Lightning AI, https://lightning.ai/docs/torchmetrics/stable/image/frechet_inception_distance.html
- A Very Short Introduction to Frechlet Inception Distance(FID) - DataDrivenInvestor, https://medium.datadriveninvestor.com/a-very-short-introduction-to-frechlet-inception-distance-fid-86c95deb0930
- 프레쳇 인셉션 거리 (Frechet Inception distance, FID)를 사용해 GANs 평가하는 법은 무엇인가요? | korean - Wandb, https://wandb.ai/wandb_fc/korean/reports/-Frechet-Inception-distance-FID-GANs—Vmlldzo0MzQ3Mzc
- FID Calculation Gotchas: Batch Size Effects and Feature Extraction - Patsnap Eureka, https://eureka.patsnap.com/article/fid-calculation-gotchas-batch-size-effects-and-feature-extraction
- Rethinking FID: Towards a Better Evaluation Metric for Image Generation - arXiv, https://arxiv.org/html/2401.09603v2
- CLIP Score — PyTorch-Metrics 1.8.2 documentation - Lightning AI, https://lightning.ai/docs/torchmetrics/stable/multimodal/clip_score.html
- [Hands-On] CLIP을 활용한 프롬프트 기반 이미지 분류 - Medium, https://medium.com/@hugmanskj/hands-on-clip%EC%9D%84-%ED%99%9C%EC%9A%A9%ED%95%9C-%ED%94%84%EB%A1%AC%ED%94%84%ED%8A%B8-%EA%B8%B0%EB%B0%98-%EC%9D%B4%EB%AF%B8%EC%A7%80-%EB%B6%84%EB%A5%98-0a2445e8938b
- [논문 리뷰] CLIP : Learning Transferable Visual Models From Natural Language Supervision - 매일 한걸음씩 - 티스토리, https://simonezz.tistory.com/88
- GAN의 평가지표 FID(Frechet Inception Distance)와 PPL(Perceptual Path Length) - 매일 꾸준히, 더 깊이 - 티스토리, https://engineer-mole.tistory.com/269
- richzhang/PerceptualSimilarity: LPIPS metric. pip install lpips - GitHub, https://github.com/richzhang/PerceptualSimilarity
- [2307.15157] R-LPIPS: An Adversarially Robust Perceptual Similarity Metric - arXiv, https://arxiv.org/abs/2307.15157
- [1806.00035] Assessing Generative Models via Precision and Recall - arXiv, https://arxiv.org/abs/1806.00035
- Exploring Precision and Recall to assess the quality and diversity of LLMs - arXiv, https://arxiv.org/html/2402.10693v3
- Assessing Generative Models via Precision and Recall - NIPS, http://papers.neurips.cc/paper/7769-assessing-generative-models-via-precision-and-recall.pdf
- Probabilistic Precision and Recall Towards Reliable Evaluation of Generative Models - CVF Open Access, https://openaccess.thecvf.com/content/ICCV2023/papers/Park_Probabilistic_Precision_and_Recall_Towards_Reliable_Evaluation_of_Generative_Models_ICCV_2023_paper.pdf
- [2305.18910] Precision-Recall Divergence Optimization for Generative Modeling with GANs and Normalizing Flows - arXiv, https://arxiv.org/abs/2305.18910
- IS(Inception score) and FID - Kim Dongkyun, https://notou10.github.io/deep%20learning/2021/05/31/FID.html
- What is Human-in-the-Loop (HITL) in AI & ML? - Google Cloud, https://cloud.google.com/discover/human-in-the-loop
- What is Human-in-the-Loop (HITL) in AI? - SuperAnnotate, https://www.superannotate.com/blog/human-in-the-loop-hitl
- Human-in-the-Loop Machine Learning (HITL) Explained - Encord, https://encord.com/blog/human-in-the-loop-ai/
- AI 편향이란? 원인, 영향 및 완화 전략 - SAP, https://www.sap.com/korea/resources/what-is-ai-bias
- 편향성에 맞서다: AI의 신뢰 구축을 위한 BSA 프레임워크, https://www.bsa.org/files/reports/2021bsaaibiaskr.pdf
- 편향성을 여전히 해결하지 못하는 이미지 생성 AI - MIT 테크놀로지 리뷰, https://www.technologyreview.kr/these-new-tools-let-you-see-for-yourself-how-biased-ai-image-models-are/
- Vertex AI의 모델 편향 측정항목 - Google Cloud, https://cloud.google.com/vertex-ai/docs/evaluation/model-bias-metrics?hl=ko
- 생성형 AI 창작물의 사회적/윤리적 평가 - 슈퍼브 블로그, https://blog-ko.superb-ai.com/generative-ai-social-ethical-evaluation/
- 생성형 AI(GenAI)란 무엇인가요? | Oracle 대한민국, https://www.oracle.com/kr/artificial-intelligence/generative-ai/what-is-generative-ai/
- 생성형 AI: 개념과 중요성 - SAS, https://www.sas.com/ko_kr/insights/analytics/generative-ai.html
- 생성형 AI란? | 예시, 사용 사례 - SAP, https://www.sap.com/korea/products/artificial-intelligence/what-is-generative-ai.html
- A comprehensive approach to evaluating text-to-image models - Labelbox, https://labelbox.com/guides/a-comprehensive-approach-to-evaluating-text-to-image-models/
- 생성형 AI 성과 측정: 올바른 선택을 위한 KPI 심층 탐구 | Google Cloud 블로그, https://cloud.google.com/transform/ko/gen-ai-kpis-measuring-ai-success-deep-dive